<p>
  高频交易（HFT）是一种定量交易，其特点是持有期短，利用复杂的计算机方法迅速交易证券。它的目标是在每笔短期交易中都获得小额利润(Cartea &amp; Penalva, 2012)。
  统计套利是根据一项或多项资产的预期价值对该资产进行统计错误定价的情况。当证券之间因定价效率低下而出现盈利情况时，交易者可以通过数学模型识别统计套利情况。统计套利在很大程度上取决于市场价格回归历史或预测均值的能力。<strong>单一价格法则（LOP）</strong>为这一假设奠定了基础。LOP指出，如果两支股票在各种自然状态下都具有相同的收益，则它们必定具有相同的现值(Gatev, Goetzmann, &amp; Rouwenhorst, 2006)。因此，两支股票近似替代资产之间的价差应在一段时间内具有稳定的长期均衡价格。
</p>

<h3>数据描述</h3>
<p>
  为了获得更多高度相关的配对，我们选择了特定行业的股票。从经济角度看，我们更喜欢传统行业，因为这些行业的公司更有可能成为近似替代品。。如果我们选择N只股票，可以使用\(\textrm{C}_{n}^{2} = \frac{n*(n-1)}{2}\)来计算配对的数目。在演示的策略中，我们使用了80只股票，所以总共得到了3160对。我们使用分钟数据并将其聚合为较低的分辨率，因此1分钟是该策略的最高分辨率。
</p>

<h3>关联法</h3>
<p>
  关联性衡量的是具有价格趋势两只股票之间的关系。由于这两支股票相互关联，因此倾向于一起移动。关联性过滤器是对备选配对进行筛选的第一步。以A股票和B股票为例，股票之间的关联系数是一个统计数值，用于衡量股票A和股票B之间的关联程度。股票A和股票B的相关系数\(\rho\)可以通过下式获得：
</p>

\[\rho = \frac{\sum_{i}^{N}(A_i - \bar{A})(B_i - \bar{B}))}{[\sum_{i}^{N}(A - \bar{A})^2\sum_{i}^{N}(B_i - \bar{B})^2]^\frac{1}{2}}\]

<p>
  其中\(\bar{A}\)和\(\bar{B}\)分别是股票A和股票B的平均价格，N表示交易数据范围。\(\rho\)在[-1,1]范围内。正值的\(\rho\)越多，股票A和股票B之间的关联性就越积极。
</p>

<p>
  然而，随着时间的推移，仅仅基于关联法的配对交易将存在不稳定的缺点。关联系数并不一定意味着两支配对股票价格之间的均值回归。为了克服上述问题，将进一步采用协整法作为配对选择过程的第二步。
</p>

<h3>协整法</h3>
<p>
  协整概念是由诺贝尔奖得主Engle和Granger开发的一种创新经济学数学模型。协整法指出，在某些情况下，尽管给定两个非平稳时间序列，但两个时间序列的特定线性组合实际上是平稳的。换句话说，这两个时间序列以步调一致的模式一起移动。
</p>

<p>
  协整的定义如下：假设\(x_t\)和\(y_t\)是两个非平稳的时间序列。如果存在参数\(\gamma\)，则可以得出以下方程：
</p>

\[z_t = y_t - \gamma x_t\]

<p>
  这是一个平稳的过程，然后xt和yt将会进行协整。这一过程是研究多元时间序列中共同资产趋势的强大工具。
</p>
<p>
  在我们的例子中，\(p_t^A\)和\(p_t^B\)分别为A股和B股的价格。如果假设{\({p_t^A, p_t^B}\)}都分别不平稳，则存在参数\(\gamma\)，以下方程是一个平稳过程：
</p>

\[P_t^A - \gamma P_t^B = \mu + \epsilon_t\]

<p>
  其中\(\mu\)是协整模型的平均值。\(\epsilon_t\)是平稳的均值回复过程，被称为<em>协整残差</em>。参数\(\gamma\)被称为<em>协整系数</em>。上面的公式表示股票A和股票B的协整对模型。
</p>

<p>
  了解协整残差和协整系数如何决定交易方向是非常重要的。如果\(\epsilon\)为正值，处于给定的置信区间内，这是股票 A定价相对较高而股票B定价相对较低的信号，我们将买入股票B，并抛出股票A。如果\(\epsilon\)为负值，则买入股票A并抛出股票B。
</p>

<h3>协整验证（可选阅读部分）</h3>
<p>
  在Engle-Granger法中(Engle &amp; Granger, 1987)，如上文方程式所述，我们首先在股票A和股票B之间建立协整回归，然后使用普通最小二乘法（OLS）估算回归参数\(\mu\)和\(\gamma\)。我们对回归残差\(epsilon_t\)进行了测试，以确定其是否平稳。
</p>

<p>
  在协整领域中，最受欢迎的平稳性测试是Augmented Dickey Fuller （ADF）测试，此测试用于确定回归残差\(\epsilon\)是否具有单位根。
</p>
<p>
  利用ADF测试来检验回归残差是否存在单位根：
</p>

\[\Delta Z_t = \alpha + \beta t + \gamma Z_{t-1} + \sum_{i = 1}^{p -1}\delta_i \Delta Z_{t-i} + \mu_t\]

<p>
  其中\(\alpha\)是常数，\(\beta\)是时间趋势系数，p是自回归过程的滞后阶，\(\mu_t\)是误差项，与连续性无关。
</p>

<p>
  方程中滞后阶p的数量通常是未知的，因此需要进行估算。为了确定滞后阶p的数量，采用了滞后阶选择的信息准则。这里我们选择贝叶斯信息准则(BIC)。
</p>

\[BIC = (T-p)\ln\frac{T\hat{\sigma}_p^2}{T-p} + T[1+ln(\sqrt{2\pi})] + p\ln[\frac{\sum_{t=1}^{T}(\Delta Z_t)^2 -T\hat{\sigma}_p^2}{p}]\]

<p>
  其中T为样本量。
</p>
<p>
  然后在零假设\(H_0 : \gamma = 0\)与替代假设\(H_1 : \gamma &lt; 0\)的情况下，使用ADF测试对回归残差\(\epsilon\)进行单位根检验。通过下式得出ADF测试的统计值
</p>

\[ADF  test = \frac{\hat{\gamma }}{SE(\hat{\gamma })}\]

<p>
  将上述方程的测试结果与ADF测试的临界值进行比较。如果测试结果小于临界值，则否定零假设。这意味着回归残差\(\epsilon\)是平稳的。因此，两支股票价格{\({p_t^A, p_t^B}\)}是协整的。
</p>
<h3>配对交易策略</h3>
<p>
  配对交易策略使用基于回归残差\(\epsilon\)的交易信号，并被建模为均值回复过程。
</p>

<p>
  为了选择合适的股票进行配对交易，采用了两阶段的关联协整法。第一步是识别来自同一行业的潜在股票配对，使用关联方法选择关联系数至少达到0.9的股票配对。第二步是检验通过关联性测试股票配对的协整性。如果协整性的测试值等于或小于-3.34（这也是95%置信水平的阈值），则否定零假设\(H_0 : \gamma = 0\)，因此残差\(\epsilon\)是平稳的，股票对通过了协整测试。第三步是根据协整测试值对所有通过两阶段测试的股票对进行排序。协整测试值越小，股票对的排名越高。排名靠前的金融股票配对将用于配对交易。
</p>
<p>
  策略的最后一步是定义交易规则。打开一个配对交易，回归残差\(\epsilon_t\)必须超过高于标准值的正\(\sigma\)标准差，或是低于标准值的负\(\sigma\)标准差。若残差为正，则抛出股票B，买入股票A；如果残差为负，则抛出股票A，买入股票B。当回归残差(\epsilon_t\)返回到一定水平时，配对交易结束。此外，为了防止在单一配对交易中损失过多，当残差达到\(4\epsilon\)正负标准差时，采用止损关闭配对交易。
</p>

<p>
  在训练期间，每个培训数据包含3个月的周期，这是一个动态滚动窗口规模。在训练期结束后，我们立即开始为期一个月的交易周期，动态滚动窗口自动向前移动，记录每对股票的新价格。在第一个交易期之后，我们使用更新后的股票价格再次选择交易配对，并开始另一个交易周期。
</p>

<h3>参数调整</h3>
<p>
  该策略的性能对参数非常敏感。主要有四个参数需要调整：开始阀值、结束阀值、止损阀值和数据分辨率。
</p>
<p>
  开始阈值代表有多少残差\(\epsilon\)超过标准差，可通过\(\frac{\epsilon - \bar{\epsilon}}{\sigma}\)进行计算。默认情况下，我们将其设置为2.32和-2.32，如果假设残差服从正态分布，则这是99%置信区间的阈值。结束阈值的计算方法与开始阈值相同，我们将其默认设置为0.5，可以尽早结束以防止进一步的发散。
</p>
<p>
  止损阀值设置为4.5。这取决于我们能承受的错误定价水平。我们对风险的容忍度越高，我们对这一参数的设置就可以越高。但是，如果我们将这个数字设置得太低，我们可能会在止损反转前结束过多的配对。
</p>
